Archivage du contenu éphémère du Web à l ’ aide des flux Web *

نویسندگان

  • Marilena Oita
  • Pierre Senellart
چکیده

Cette proposition de démonstration concerne une application d’archivage du contenu du Web à l’aide des flux Web. A partir de la spécification d’un domaine par l’utilisateur, des services spécialisés sont utilisés pour acquérir des flux pertinents. Pour chacun de ces flux, on exploite les indices sémantiques attachés à un objet dynamique pour extraire, à partir de la page Web associée, les données qui correspondent à la description. On ajoute à cet objet des méta-données supplémentaires et l’estampille temporelle, on extrait le template de la page, et on garde ces composants indépendamment pour être prêts à répondre à des requêtes temporelles et sémantiques et, à la demande, reconstruire la page Web référencée par le flux. Les méthodes pour détecter le changement de la page Web sont également utiles dans le cadre d’un crawl incrémental des versions du même objet dynamique.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Crawl intelligent et adaptatif d'applications web pour l'archivage du web

RÉSUMÉ. Les sites web sont par nature dynamiques, leur contenu et leur structure changeant au fil du temps; de nombreuses pages sur le web sont produites par des systèmes de gestion de contenu (CMS). Les outils actuellement utilisés par les archivistes du web pour préserver le contenu du web collectent et stockent de manière aveugle les pages web, en ne tenant pas compte du CMS sur lequel le si...

متن کامل

Traitement et exploration du fichier Log du Serveur Web pour l'extraction des connaissances : Web Usage Mining

Résumé : Le but dans ce travail consiste à concevoir et réaliser un Outil, en se basant sur l’ECD (Extraction de la Connaissance a partir de bases de données), en utilisant les concepts du Web Usage Mining, pour offrir aux web masters l’ensemble des connaissances, y inclut les statistiques sur leurs sites, afin de prendre les bonnes décisions. Il s’agit en faite, d’extraire de l’information à p...

متن کامل

G-OWL : Vers un langage de modélisation graphique, polymorphique et typé pour la construction d'une ontologie dans la notation OWL

Résumé : Le Web Ontology Language (OWL) standardisé par le W3C a pour objectif d’offrir un langage de conception d’ontologies pour le web sémantique. L’ingénierie d’une ontologie est une activité complexe nécessitant une habilité peu accessible à des experts de contenu. En revanche, pour modéliser du contenu métier, la modélisation graphique semi-formelle est une technique souvent employée pour...

متن کامل

Web sémantique pour la mémoire d'expériences d'une communauté scientifique : le projet MEAT

Résumé. Cet article décrit le projet MEAT (Mémoire d'Expériences pour l'Analyse du Transcriptome) dont le but est d'assister les biologistes travaillant dans le domaine des puces à ADN, pour l'interprétation et la validation de leurs résultats. Nous proposons une aide méthodologique et logicielle pour construire une mémoire d'expériences pour ce domaine. Notre approche, basée sur les technologi...

متن کامل

WCUM pour l'analyse d'un site web

Résumé. Dans ce papier, nous proposons une approche WCUM (Web Content and Usage Mining) permettant de relier l’analyse du contenu d’un site Web à l’analyse de l’usage afin de mieux comprendre les comportements de navigation sur le site. L’apport de ce travail réside d’une part dans la proposition d’une approche reliant l’analyse du contenu à l’analyse de l’usage et d’autre part à l’extension de...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2010